PROJET - INF721- Kit Big Data

Gwladys Sanchez

1. Chargement des données

1.1) Récupération des données "classements"

Les adresses WEB des liens de téléchargement pour le classement ressemblent toutes à l'adresse suivante, à la date près : https://www.vendeeglobe.org/download-race-data/vendeeglobe_20210305_080000.xlsx

1.2) Récupération des données techniques sur les voiliers

On constate en analysant le code source que les données techniques sur les voiliers sont stockées dans la classe "boats-list__popup-specs-list".

2. Exploration des fichiers, nettoyage des données

2.1) Construction d'un dataframe global qui concatène tous les classements sans tri des lignes, et d'un autre s'arrêtant au 27/01/2021, avant l'arrivée du premier concurrent.

On constate que ces lignes sont toutes essentiellement vides (toutes les valeurs variables (vitesse, cap etc.) sont manquantes), et qu'elles peuvent donc être supprimées.

2.2) Rapprochement des données des voiliers avec celle des classements.

On cherche à effectuer un "join" entre la table des classements et celle des informations sur les skippers. On compare donc leur allure générale et on vérifie donc qu'il existe une base fiable pour réaliser le join (le numéro de voile semblant le plus approprié).

2.3) Construction d'un tableau pour chaque skipper avec en colonne la longitude, latitude, distance au 1er, distance théorique avant la fin, classement, vitesse utile, et en ligne la liste dans le temps de toutes ces valeurs (jusqu'à la date d'arrivée du skipper).

3. Analyse

3.1) Corrélation et régression linéaire entre le classement (rang) et la vitesse utile (VMG) des voiliers.

On utilise ici le dataframe df_join_ARV. On effectue une régression linéaire pour expliquer le rang final de chaque voilier en fonction de la moyenne de toutes ses vitesses utiles depuis 24 heures.

De façon prévisible, on observe une très nette corrélation entre la vitesse moyenne des voiliers et leur classement. Toutefois, la dernière partie de la courbe est particulièrement intéressante : on constate que la vitesse des meilleurs skippers atteint un plateau autour de 12,5 kts, et ce n'est donc manifestement plus la vitesse qui a permis de départager les 9 premiers concurrents. Il s'agit sans doute plutôt de la trajectoire suivie.

Des irrégularités apparaissent (vitesse moyenne du 1er inférieure à celles du 2ème et 3ème), mais s'expliquent aussi par le fait que le classement ne dépende pas seulement de la date d'arrivée, mais aussi des bonus accordés aux skippers (par exemple pour le sauvetage de leurs concurrents en difficulté).

3.2) Impact de la présence d'un foil sur le classement et la vitesse des voiliers.

On considère que "foiler" et "foils" désignent la même chose (des voiliers qui possèdent un/plusieurs foils).

Les voiliers équipés de foil semblent répartis dans tout le classement. Toutefois, si les finishers avec foil semblent meilleurs que leurs concurrents sans foil, les voiliers avec foil sont également sur-représentés parmi les abandons.

L'impact de cet équipement sur le classement n'est donc pas directement visible. En revanche, il semble avoir une incidence directe sur la vitesse.

On le vérifie toutefois par une régression linéaire (avec la présence ou non de foil exprimée en "one-hot vector").

Sur le plan de régression, on observe une augmentation du classement quand un foil est présent(plan s'incline vers le haut pour foil = 1). (mode de visualisation n°1)

La relation entre le classement et la vitesse apparaît également très clairement. (mode de visualisation n°2)

En revanche, en ce qui concerne l'impact sur la vitesse, l'influence du foil n'est pas évidente, le plan de régression se trouvant quasiment dans le plan "horizontal". On l'observe toutefois plutôt bien sur les données réelles. (mode de visualisation n°)

3.3) Visualisation de la distance parcourue par voilier.

Ces distributions ne sont pas très intéressantes pour les finisher, car elles permettent surtout de voir que la distance totale de la course est d'environ 27.000 noeuds marins. En revanche, cela permet de voir à quelle "proportion" de la course ont eu lieu les abandons. Une difficulté (météorologique ou géographique ?) semble avoir poussé plusieurs coureurs à l'abandon autour de 8-9.000 nm (environ 1/3 du parcours).

Il serait dans tous les cas plus intéressant d'observer ces distances dans le temps.

3.4) Visualisation de la distance parcourue par voilier au cours du temps.

Ce graphique permet de bien visualiser la différence de vitesse entre les concurrents. On constate par exemple que l'un des abandons a eu lieu à mi-chemin après une importante perte de vitesse (courbe du bas qui se détache du "bloc"), mais les autres abandons sont dans le bloc, ces autres démissionnaires n'ont pas semblé perdre de vitesse, leur abandon est sans doute lié à d'autres raisons.

3.5) Cartes avec les routes d'un ou plusieurs voiliers.

newplot.png

On constate sur cette carte que les trajectoires sont assez distinctes d'un concurrent à l'autre, surtout au niveau de l'équateur dans l'Atlantique. Ces différences, sans doute liées aux courants et vents, permettent aussi de visualiser la différence de distance parcourue par les skippers, et pourrait expliquer l'écart à l'arrivée entre les concurrents.